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jj Xu 基于 连续 拼接 多 块 结构 化 网 格 ， 通 过 求解 雷诺 平均 Navier-Stokes 方程 研究 并 行 计算 中 的 负载 平 
衡 问题 。 利 用 组 合 优化 中 的 排序 理论 设计 负载 平衡 算法 ， 实 现 了 网 格 数据 的 自动 划分 和 各 处 理 机 
上 计算 任务 的 白 动 分 配 。 在 工作 站 集群 MPI 并 行 环境 下 ， 通 过 实例 考察 了 负载 平衡 算法 和 并 行 
计算 的 性 能 ，16 个 处 理 机 上 的 负载 均 方 差 和 负载 相对 均 方差 分 别 为 0.0084 和 0.1347%， 并 行 计 
算 结 果 和 实验 数据 喝 合 良好 ， 并 行 效率 高 。 本 文 算法 具有 良好 的 可 扩展 性 ， 适 用 二 MIMD 结构 
计算 机 上 上 基于 多 块 结构 化 网 格 并 行 计算 中 的 负载 平衡 问题 。 
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1 引言 


新 型 飞行 器 的 气动 设计 和 研制 要 求 对 具有 分 离 、 旋 涡 、 激 波 / 附 面 层 干扰 等 复杂 流动 特性 的 
气动 问题 采用 雷诺 平均 Navier-Stokes (RANS) 方程 ， 求 解 这 类 方程 往往 要 求 计 算 达 到 千 万 网 格 
点 的 规模 。 对 于 这 种 大 规模 高 精度 的 流体 力学 计算 问题 ， 人 们 常 利用 高 性 能 计算 机 进行 并 行 计 
算 以 提高 计算 速度 。 并 行 计算 作为 CFD 研究 的 一 个 主要 方向 ， 得 到 了 国内 外 研究 人 员 的 广泛 
重视 和 快速 发 展 上 3 引 。 

区 域 分 解 算法 将 问题 的 求解 区 域 划分 成 多 个 子 区 域 ， 这 些 子 区 域 相 互 包含 相 邻 区 域 的 拟 
边 办 信息， 相互 迭代 共同 求解 同一 问题 。 并 行 计算 与 区 域 分 解 算 法 相 结 合 ， 将 网 格 数据 分 配 
给 多 个 处 理 机 完成 ， 计 算 过 程 中 利用 PVM (Parallel Virtual Machine) # MPI (Message Passing 
Interface) 消息 传递 接口 处 理 机 之 间 进 行 适当 通信 。 对 于 这 种 基于 消息 传递 模式 的 大 粒度 数据 
并 行 来 说 ， 影 响 并 行 效率 的 主要 因素 主要 是 负载 平衡 。 

本 文采 用 分 区 策略 ， 根 据 计 算 模 型 几何 上 的 特性 进行 分 区 ， 生 成 初始 计算 网 格 。 将 并 行 计 
算 中 的 负载 平衡 问题 化 成 极 小 化 最 大 完工 时 间 的 可 拆 分 排序 问题 ， 设 计 负 载 平衡 算法 ， 实 现 网 
格 数据 的 自动 划分 和 计算 任务 到 各 处 理 机 上 的 自动 分 配 ， 并 通过 实例 对 本 文 负载 平衡 算法 的 性 
能 和 并 行 算法 的 可 扩展 性 进行 评估 。 


2 ”控制 方程 和 数值 方法 


控制 方程 为 无 量 纲 化 时 间 相 关 的 三 维 守恒 型 RANS 方程 ， 在 一 般 曲 线 坐 标 系 下 其 形式 为 
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数值 方法 采用 Jameson 针 中 心 格 式 加 自 适 应 二 阶 和 四 阶 人 工 粘 性 ， 用 隐 式 LU-SGS 方 
法 问 沿 时 间 推 进 ， 满 流 模型 为 Spalart-Allmaras (S-A) 一 方程 满 流 模型 加 。 

由 于 使 用 隐 式 时 间 向 前 推进 方法 ， 各 子 区 域 边 界 点 上 的 计算 需要 用 到 其 相 邻 子 区 域 边 
界 点 上 的 数据 ， 为 了 使 各 子 区 域 上 的 隐 式 求解 互 不 相关 ， 对 网 格 块 “内 边界 ”进行 显 式 处 
理 。 如 图 1 所 示 ，A,B 为 相 邻 子 域 ， 其 边界 面 上 的 网 格 连续 拼接 ， 若 A 区 域 上 的 数值 解 用 符 
号 好 (7 = 0,12……,m) 标 记 ，B 区 域 上 的 数值 解 用 符号 好 (7 = 0,1,2,…) 标 记 ， 那 么 边界 显 
式 处 理 的 结果 为 : vil — un ua, un = 但， 这 样 处 理 并 不 会 影响 计算 方法 的 稳定 性 ， 且 能 和 
到 稳定 收敛 的 结 ERIS, 


Block A : Block B 
0 1 2 Mi 
图 1: 拼接 网 格 


3 负载 平衡 算法 


负载 平衡 实际 上 是 在 并 行 机 或 分 布 式 多 处 理 机 的 各 节点 机 之 间 重 新 分 配 工作 量 的 一 个 过 
程 。 其 目的 是 设计 一 种 排序 算法 实现 计算 任务 到 各 节点 机 上 的 分 配 ， 使 得 尽 可 能 快 地 完成 全 部 
计算 任务 。 对 于 基于 消息 传递 的 数据 并 行 模式 来 说 ， 负 载 平 衡 算 法 一 般 包 括 数据 划分 和 任务 到 
处 理 机 上 分 配 两 个 方面 。 

3.1 模型 

设 有 m 个 处 理 机 ， 处 理 机 M; 的 计算 速度 (每 秒 浮 点 运算 次 数 ) 为 sz, n 块 网 格 ， 网 格 G; 所 
包含 的 网 格 单元 数 为 N}， 人 允许 网 格 拆 分 成 多 个 子 网 格 在 不 同 的 处 理 机 上 进行 计算 ， 但 同一 网 
格 块 的 任何 两 个 不 同 的 子 网 格 不 能 在 同一 个 处 理 机 上 计算 。 为 了 确保 整个 计算 的 稳定 性 和 可 实 
现 性 ， 要 求 网 格 拆 分 的 次 数 尽量 少 ， 拆 分 后 所 得 子 网 格 块 的 规模 不 能 太 小 。 如 何 将 这 n 块 网 格 
分 配给 m 个 处 理 机 才能 使 整个 计算 任务 在 最 短 时 间 内 完成 。 这 属于 极 小 化 最 大 完工 时 间 的 可 
拆 分 平行 机 排序 问题 。 假 设 : 不 计 边 界 单 元 上 的 计算 晤 和 处 理 机 之 间 的 通信 时 间 ， 若 向 前 推 
进 1 个 时 间 步 ， 每 个 网 格 单元 上 需 要 执行 的 浮 点 运算 次 数 为 三 次 ， 则 所 有 网 格 单元 上 需要 执行 
的 浮 点 运算 次 数 之 和 为 Yo Ni x W， 全 部 处 理 机 的 计算 速度 之 和 为 Yrs 那么 全 部 处 理 机 共同 


完成 所 有 计算 任务 需要 的 平均 时 间 为 


Tove = ba xw]/ » (2) 
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T Fl Gi 表示 分 配 到 处 理 机 M; 上 的 网 格 块 集合 ， 则 处 理 机 M 完成 其 上 任务 需要 的 时 间 为 


S- | DN x Wl|/s (3) 
k€Gi 
目标 为 
min max ti. (4) 
l<i<m 
3.2 算法 


为 避免 网 格 拆 分 过 程 中 出 现 过 小 的 子 网 格 块 ， 本 文 在 算法 中 设置 一 较 小 量 。。 

1) 计算 所 有 处 理 机 完成 全 部 计算 任务 的 于 均 时 间 Tave: 

2) 将 未 被 分 配 的 网 格 块 按 加 工时 间 不 增 排 序 建立 链表 1; 

3) MHR 1 非 空 时 ; 

3.1) 找 出 当前 速度 最 快 的 处 理 机 M; 

3.2) 将 链表 1 当前 位 置 处 的 网 格 块 G; 加 载 到 M; 上 求 出 Mi AISETA ti; 

3.3) WM t: > Tave(1 +e), KARIR Gj 按 一 定 比例 剖 分 成 两 个 子 网 格 GT 和 G3， 使 得 
Gj 分 给 处 理 机 Mi 后 , Mi 的 完工 时 间 约 为 Tave, 修改 子 网 格 块 G} 和 G3 的 边界 条 件 ; 

3.4) 将 子 网 格 G3 分 配给 处 理 机 M;， 将 子 网 格 G3 插入 到 链表 1 中 ， 直 到 链表 1 为 空 。 


4 ”实例 及 结果 分 析 


以 绕 全 机 多 块 结构 化 网 格 为 例 ， 同 时 引入 负载 均 方差 和 负载 相对 均 方差 指标 来 测评 本 文 负 
载 站 衡 算法 的 性 能 是 。 一 般 来 说 ， 负 载 均 方差 和 负载 相对 均 方差 越 小 说 明 各 处 理 机 上 的 负载 越 
均衡 。 以 非 对 称 C6 弹 体 为 例 评估 并 行 计算 结果 的 可 信和 度 和 并 行 算法 的 可 扩展 性 。 

4.3 带 双 立 尾 全 机 

初始 网 格 为 26 块 结构 网 格 ， 其 规模 见 图 2， 图 3 是 双 立 尾 全 机 表面 网 格 。 机 器 是 16 个 处 理 
机 构成 的 工作 站 集群 ， 其 中 第 5、7、9 号 节点 机 的 浮 点 运算 速度 是 其 余 节 点 机 的 1.25 倍 ，16 个 
处 理 机 的 平均 运算 速度 为 16.1875 mflops. 


Bau of grid points 


3458676 9101112131415 [6 IT 18 19 20 21 22 23 24 25 26 


图 2: 26 块 网 格 的 规模 分 布 图 3: 带 双 立 尾 全 机 表面 网 格 


假设 沿 时 间 每 向 前 推进 1 个 时 间 步 ， 每 个 网 格 单元 上 需要 执行 4810 次 浮 点 运算 数 。 可 求 得 
每 向 前 推进 1 个 时 间 步 16 个 处 理 机 的 平均 完工 时 间 为 6.23799 秒 ， 取 < — 0.05， 实 施 本 文 负载 
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平衡 算法 ，26 块 网 格 被 拆 分 9 次 最 终 变 成 为 35 块 网 格 ，35 块 网 格 在 16 个 节点 机 上 的 分 配 情况 
和 各 节点 机 的 预计 完工 时 间 见 表 1。 


表 1: 各 节点 机 上 的 任务 分 配 和 完工 时 间 


x [ss [xor | x EE 
[ s pemms| v | o eme | m amo 
[16 [osm | s | sess | omm | a [menie | 
[i fems | o | sra [nsn | 

[s emm [us | s ozan] 
[as sme | n | wa [aem | 
[m [sme | sz acaso | 200: | 


表 2 是 本 文 负载 平均 算法 的 性 能 指标 ， 从 表 2 可 以 看 出 ， 每 向 前 推进 1 个 时 间 步 需要 花费 的 
计算 机 机 时 为 6.4295 秒 ， 是 机 器 平均 完工 时 间 的 1.0307 倍 ，16 个 节点 机 的 负载 均 方 差 和 负载 
相对 均 方 差分 别 为 0.0084 和 0.1347%。 结 果 表 明 ， 本 文 负载 平衡 算法 性 能 良好 ， 用 此 算法 分 配 
到 各 节点 机 上 的 负载 相当 均衡 。 


表 2: 负载 平衡 算法 的 性 能 指标 


处 理 机 数 负载 均 方差 | 载 相对 均 方 差 (%) 


6.15175 
6.07612 
6.42950 
6.06925 


6.23799 6.42950 0.0084 


负载 均 方差 和 负载 相对 均 方 差分 别 定义 为 


m 
lo = »» = lave)” /m, lro = lo /lave, (5) 
i=1 


其 中 4 表示 第 i 个 节点 机 上 的 负载 最 ，lave 表示 平均 负载 量 ，m 表示 处 理 机 个 数 。 

4.2 非 对 称 C6 弹 体 

采用 大 小 为 81 x 43 x 49 的 两 块 结构 网 格 ， 在 由 8 台 CPU 速 度 为 2.0GHz 的 计算 机 构成 
的 并 行 环境 下 (其 中 主 节点 的 内 存 为 2Gbytes， 其 他 7 个 节点 机 的 内 存 为 1Gbytes) 对 绕 C6 弹 
体 的 流 场 进行 RANS 方程 并 行 计算 ， 计 算 状 态 为 Mach=0.9，a = 00 和 100。 图 4 是 C6 弹 体 
的 C 一 型 计算 网 格 拓扑 结构 ， 图 5 和 图 6 是 使 用 8 台 机 器 进行 并 行 计算 所 得 弹 体 对 称 面 压力 
系数 分 布 与 实验 数据 的 比较 。 从 图 5 和 图 6 可 以 看 出 ， 并 行 计算 结果 和 实验 数据 吻合 良好 ， 说 
明 本 文 并 行 计算 程序 、 通 信和 计算 结果 均 可 信 。 

4.3 ”算法 的 可 扩展 性 

并 行 算法 的 可 扩展 性 (Scalability) 是 指 并 行 计 算 的 性 能 随处 理 机 数目 的 增加 而 按 比 例 提 高 的 
能 力 。 依 据 等 效率 度量 法 H9] ， 随 着 处 理 机 数目 的 增加 ， 若 需要 增加 较 少 量 的 计算 规模 ， 就 可 
使 并 行 计算 效率 保持 不 变 ， 那 么 该 并 行 算法 具有 良好 的 扩展 性 。 

为 测评 本 文 并 行 算法 的 可 扩展 性 ， 在 由 8 台 CPU 速度 为 2.0GHz 的 计算 机 构成 的 并 行 环境 
下 ， 以 C6 弹 体 规模 为 2 x 81 x 43 x 49 的 计算 网 格 和 2 个 处 理 机 为 起 点 ， 使 网 格 点 数 和 处 理 机 
数目 均 成 倍增 加 。 测 得 20 步 的 并 行 计算 时 间 和 并 行 效 率 见 表 3。 从 表 3 可 以 看 出 ， 粗 、 中 、 细 
网 格 分 别 在 2、4、8 台 机 器 上 的 并 行 效率 分 别 为 94.81%，92.74%% 和 91.93%。 随 着 机 器 数目 的 
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增加 ， 并 行 效 举 稍 有 减少 。 对 于 这 种 并 行 效率 小 幅 降 低 现象 ， 我 们 认为 ， 主 要 是 由 于 随 着 处 理 
机 个 数 的 增加 ， 网 格 拆 分 的 次 数 相应 增多 ， 处 理 机 之 间 的 通信 息 相 应 增 大 ， 而 并 行 计算 机 的 通 


SS 
SRN 
SN 
SN NS 


NS 
N 
SS 


ZI 
ULA 
AT B B A 
BA 


2 


Machz0.9 Alphaz0.0 


图 5: 对 称 面 压力 系数 分 布 图 6: 对 称 面 压力 系数 分 布 


表 3: 并 行 效率 
4 节点 | 并 行 效率 (%) | 8 节点 
ma) | | 
[aa [wa 


网 格 单机 
粗 /172032 | 162.55 
中 /344064 | 326.69 
细 /688128 | 687.77 


5 ”结论 


利用 组 合 优化 中 的 排序 理论 设计 了 一 种 负载 平衡 算法 ， 实 现 了 网 格 数据 的 白 动 划分 和 各 
处 理 机 上 任务 的 自动 分 配 。 带 双 立 尾 全 机 的 结果 表明 ， 本 文 负 载 平 衡 算法 可 行 、 性 能 良好 。 
非 对 称 C -- 6 弹 体 结果 表明 ， 本 文 并 行 算法 具有 较 好 的 可 扩展 性 。 本 文 负载 平衡 算法 适用 
于 MIMD 结构 计算 机 上 基于 多 块 结构 化 网 格 并 行 计 算 中 的 负载 平衡 问题 。 
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Abstract: This paper discusses the parallel computing and load balancing problems of Navier-Stokes 
equations, which are solved by using the multi-block structured grids with grid points matched on 
sub-domain boundaries. A load balancing algorithm is developed by using the scheduling method in 
combinatorial optimization, so that the grid partitioning and the task allocation can be implemented 
automatically. Several cases are performed on an MPlI-based workstation cluster to investigate the 
performance of the load balancing algorithm and the parallel computing. With 16 processors, the 
absolute and relative load mean squared deviation are 0.0084 and 0.134796, respectively. The computed 
results agree well with the experiment, and the parallel efficiency is high. This algorithm has a good 
scalability and can be used to deal with load balancing problems of CFD parallel computing which uses 
the multi-block structured grids on the MIMD computer system. 
Keywords: Navier-Stokes equations; load balancing; parallel computing; scheduling 
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